智能论文笔记

CEN : Cooperatively Evolving Networks

Sobhan Babu , Ravindra Guravannavar

分类：机器学习

2022-07-05

有限重复的游戏是一个充满活力的游戏，在该游戏中，同时玩的游戏有限多次。GAN包含两个竞争模块：对发电机模块进行了训练以生成新的示例，并训练了判别器模块以区分真实示例与生成的示例。GAN的训练过程是一个有限重复的游戏，每个模块都试图以非合作方式在每个同时游戏的情况下优化其错误。我们观察到，如果在同时游戏的每个实例中，更强大的模块与较弱的模块合作，并且只有较弱的模块只能优化其错误。

translated by 谷歌翻译

Fast and Precise Binary Instance Segmentation of 2D Objects for Automotive Applications

Darshan Ganganna Ravindra , Laslo Dinges , Al-Hamadi Ayoub , Vasili Baranau

分类：计算机视觉

2022-08-24

在本文中，我们专注于改进二进制2D实例细分，以帮助人类用多边形标记地面真相数据集。人类的标签只需要在物体周围绘制盒子，然后自动生成多边形。为了有用，我们的系统必须实时运行CPU。二进制实例细分的最常见方法涉及编码器折叠网络。本报告评估了最先进的编码器 - 码头网络，并提出了一种使用这些网络改善实例分割质量的方法。除了网络体系结构的改进之外，我们提出的方法还依靠为网络输入，所谓的极端点（即对象轮廓上的最外部点）提供额外的信息。用户可以几乎尽快给它们标记它们，而不是边界框。边界框也可以从极端点推导。与其他最先进的编码器网络相比，此方法可产生更好的IOU，并且在将其部署在CPU上时也足够快。

translated by 谷歌翻译

HTML版本

Learning Speaker-specific Lip-to-Speech Generation

Munender Varshney , Ravindra Yadav , Vinay P. Namboodiri , Rajesh M Hegde

分类：计算机视觉

2022-06-04

对于普通人来说，了解唇部运动并从中推断出讲话是很困难的。准确的唇部阅读的任务从说话者的各种线索及其上下文或环境环境中获得帮助。每个演讲者都有不同的口音和说话风格，可以从他们的视觉和语音功能中推断出来。这项工作旨在了解语音和单个说话者在不受约束和大型词汇中的嘴唇运动顺序之间的相关性/映射。我们将帧序列建模为在自动编码器设置中的变压器之前，并学会了利用音频和视频的时间属性的关节嵌入。我们使用深度度量学习学习时间同步，这指导解码器与输入唇部运动同步生成语音。因此，预测性后部为我们提供了以说话者的说话风格产生的演讲。我们已经在网格和LIP2WAV化学讲座数据集上训练了模型，以评估在不受限制的自然环境中唇部运动的单个扬声器自然语音生成任务。使用人类评估的各种定性和定量指标进行了广泛的评估还表明，我们的方法在几乎所有评估指标上都优于lip2wav化学数据集（在不受约束的环境中的大词汇）（在不受约束的环境中的大词汇），并且在边缘上胜过了较大的范围。网格数据集。

translated by 谷歌翻译

Agile Satellite Planning for Multi-Payload Observations for Earth Science

Rich Levinson , Sreeja Nag , Vinay Ravindra

分类：机器人

2021-11-13

我们为Adaptive遥感中的地球观测系统提供了一种规划的挑战，方法和初步结果，以便在适应性遥感中的地球观测系统。我们的启发式指导约束优化计划者为多个卫星产生协调计划，每个卫星都有多种仪器（有效载荷）。卫星是敏捷的，这意味着它们可以快速操纵以应对快速变化的现象来改变观察角度。该计划者在闭环上下文中运行，更新计划，因为它接收到常规传感器数据和更新的预测。我们描述了策划者的搜索空间和搜索程序，并提出了初步实验结果。贡献包括使用星载雷达初始识别计划的搜索空间，限制，启发式和性能指标，其应用于土壤湿度监测场景。

translated by 谷歌翻译

Contextual Hate Speech Detection in Code Mixed Text using Transformer Based Approaches

Ravindra Nayak , Raviraj Joshi

分类：自然语言处理 | 机器学习

2021-10-18

在最近的过去，社交媒体平台帮助人们连接和沟通到更广泛的受众。但这也导致了网络欺凌的激烈增加。要检测和遏制仇恨言论，以保持社交媒体平台的理智。此外，在这些平台上经常使用包含多种语言的代码混合文本。因此，我们提出了从刮擦Twitter的代码混合文本中的仇恨语音检测自动化技术。我们专注于代码混合英语 - 印地文文本和基于变压器的方法。虽然常规方法独立分析了文本，但我们还以父推文的形式使用内容文本。我们尝试在单编码器和双编码器设置中评估多语言BERT和ANDIP-BERT的性能。第一种方法是使用分隔符令牌连接目标文本和上下文文本，并从BERT模型获取单个表示。第二种方法独立地使用双BERT编码器独立地编码两个文本，并且对应的表示平均。我们表明使用独立表示的双编码器方法产生更好的性能。我们还采用了简单的集合方法来进一步提高性能。使用这些方法，我们在HASOC 2021CCL代码混合数据集上报告了最佳F1分数为73.07％。

translated by 谷歌翻译